FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让
面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让
如何让自动驾驶系统像经验丰富的人类驾驶员一样,具备对复杂动态交通场景的直觉式预判与决策能力?这是该领域追求的终极目标之一。近年来,功能强大的视觉语言模型(VLM)为实现这一目标带来了曙光,但其主流的“思考”方式仍存在瓶颈。